查看原文
其他

张凌寒:为什么数学模型成为大规模杀伤性武器?

周泰律所 周泰研究院 2022-10-02

日前,《周泰 · 书声》第九期之《算法霸权》品读会在北京周泰律师事务所举办,现场邀请了中国政法大学数据法治研究院教授张凌寒、中国人民大学法学院副教授郭锐、北京大学法学院长聘副教授戴昕、北京大学法学院副教授胡凌、中国人民公安大学法学院副教授苏宇、北京航空航天大学法学院助理教授赵精武、北京周泰律师事务所高级律师储江、北京大学法学院副教授江溯共同探讨、解读这本《算法霸权》!

本文整理自品读会上品读人张凌寒教授的发言内容,供读者参考。

全文共: 5642字   预计阅读时间: 15分钟 

张凌寒

中国政法大学数据法治研究院教授

大家好,感谢江溯老师的邀请,很荣幸来到周泰书声,能跟大家一起聊一聊《算法霸权》这本书,我们今天一起品读的是凯西·奥尼尔的这本《算法霸权》。这并不是一本新书,早在2017年在美国已经出版了,2018年很快就被翻译成了中文。这本书产生较大影响的原因,是五年之前正是数字经济蓬勃发展之时,整个社会都还在歌颂大数据给人们带来的便利,给决策带来的客观性、科学性。作者却直言,这本书的目的是要揭示大数据的阴暗面。因此也有人评价说,这本书整个给人一种弥漫着末世感和技术悲观主义的气息。

那么《算法霸权》主要讲了一个什么样的故事呢?作者讲述了我们从现实世界到数字世界的迁移过程当中,为什么数学的模型,也就是算法形成了一种重要的社会权力,而这种权力又是如何成为霸权来决定人们的生活。

这个书的作者我想先简单介绍一下,这本书的作者可以说她绝对是这个领域的一个技术专家,她本身从哈佛大学拿到了自己数学的博士学位。最早他在大学担任数学专业的教授,后来他离职之后就到了美国顶尖的基金公司,从事的是什么工作呢?就是设计应用于金融活动的数学模型。工作不久之后,发生了2008年的严重经济危机,因此她从对冲基金公司离职,又去了一家在线的旅游网站,用数学模型去做客户分析。

所以作者的工作经历,原来是从事纯的数学的教育和研究工作,然后用这些数学模型、算法模型去研究如何让基金获得更高的收益率,紧接着到在线网站之后就用数学模型分析人的行为。那么作者的这样一个经历也给了他一系列体验——数学从很中立的纯粹科学应用,被应用于经济领域,再被应用于人的评价。所以说作者受到自己工作经历的影响,他意识到这些看似本来是纯粹的数学和中立的这些算法模型,实际上在深刻地影响着我们的经济和人的基本权利和生活。

这个书名非常有意思叫大规模数学武器,实际上他是借用了一个大规模杀伤性武器的说法,就是在当时的世界新闻当中经常见到的词。为什么数学模型成为了一个大规模杀伤性武器呢?对这本书的品读可以从书的名字开始。

第一,为什么技术中立、无害的数学模型会成为武器?第二个就是为什么这种武器又具有了极强的杀伤性?或者说数学模型是如何具有危害性的,第三个,这种危害性主要作用的对象是谁?给整个社会造成了一个什么样的后果?

我们首先来谈一谈技术性的数学模型是怎么样成为武器的呢?

有两个原因:第一威力强大,第二大规模使用。这本书由很多故事组成的,可以说从横向到纵向,作者描述了一个人和一个社会被算法控制的一生,以及社会的方方面面。在一个人上中学的时候,他所在的学校用算法去评价教师的业绩。获得高分的教师能够继续在公立学校工作,获得低分的则会被淘汰。在大学阶段,大学会根据大学排行榜的各种指标来去调试资源投放,以获得自己获得更高的排名。在法庭上,算法被用来给人量刑,被用来为法官提供决策辅助系统。在职场上,那么你的简历可能要被算法模型先进行分析,如果你并不符合算法所设定的我要筛选和寻找的那些最优的受雇者,你可能会失去这份工作机会。

那么如果说从整个社会各个切面来看,在经济领域,保险公司在决定是否要跟你达成保险合同之前,可能会通过算法来对你进行一个评估;在社会治理领域,越来越多的数据模型被用来评估哪些地区可能是一个高风险的治安风险的地区,被算法模型评估为高风险的人群连飞机都无法上去等等,这本书当中列举了各方面详尽多样的例子。

当然书中所举的例子是以美国的例子为主,实际上在中国有很多相关的例子。比如说2016年我们看到支付宝就基于芝麻信用推出的计算模型对用户进行评分。芝麻信用的分数可以在达到一定分数之后,就直接申请签证、贷款等。我国正在如火如荼建设的社会信用体系,口号就是让失信者寸步难行。再比如说北森发明的人格测评,现在也成为了很多公司在员工招聘和入职时候的必经程序。

这就使得一个看起来平平无奇的数学模型,在通过应用场景的加持之后,成为了能够决定社会上很多人生活、权利的非常重要的一种决策手段,这也是作者为什么认为数学模型可能成为一种具有巨大威力的武器。

第二,为什么说这种模型是一种大规模的杀伤性的武器呢?

这就是从书中所讲到的大数据的阴暗面讲起,那么如果说一个数学模型可以被用来对人做决策的话,那么他是一定要经过两个步骤的,第一个步骤就是要把你要做决策的这件事情,其中所有的要素和你要评价的人都要用数字来表达出来。第二个过程杀伤性可能产生的过程,我们要设计一个这样的模型,并且要让这个模型按照我们预定的标准去不断地优化和接近我们所需要达到的目标。在这两个进程中,在把人或者一些事情用数学表达,以及用数学模型计算得出结论的过程当中就可能产生很多的问题。

第一个把人用数字表达的步骤,我们举个简单的例子。这个书中在前言当中写到,有一个叫萨拉的美国教师,他一向认为自己是一个非常优秀的教师,所有的同事、校长和家长都给了他很高的评价。当公立学校系统决定引用这样一个数学模型给教师评分,要淘汰后5%、10%老师的时候,他丝毫没有担心过。可是他突然发现自己年终的时候已经被算法评价不合格的教师,他就非常惊讶,你是怎么判定我是不合格的呢?后来他会发现在设定这些评价指标的时候,自己学生阅读所得到的成绩占了很大的一部分。一个放弃学习考分很低的学生可能毁了老师的工作,但是教师对于学生是不是关心,家长对于老师的评价,以及教师对于工作认真负责的程度等等要素实际上很难通过一些具体的数字去表述的。现实生活是很复杂的,具有多面维度的。简单地用数字来表达势必会丧失很多比较人性和人文的东西。

第二个步骤是用数学模型来计算得出结论的过程。首先就是在设计这个模型的时候,你的导向如何?如果说我们把目的导向性设计得过强,可能就会出现公平的问题。任何一个模型都有自己的目标,比如说高考成绩,比如说录取率,比如说我们在判断一个广告效果好不好的时候,我们主要看的是转化率,再比如说我们去判断一个软件做得好不好,我们主要的评价标准就是你让用户在这上面花了多长时间,一旦我们把这种目标导向作为最高导向的话,很有可能就作为最高追求人忽略了很多其他的公平要素。其次是合法性的问题。这个模型可以用来被决定这么多的实际资源的分配,可是这些数学模型往往又不透明,不接受质疑,而且无从解释。我们刚才那个故事当中的教师,他在发现自己评分很低的时候,他就向管理机关提出了自己的质疑,说你究竟评分的标准是什么,能不能告诉我,我想知道我为什么获得了这么低的分,可是管理机关告诉他说这个数学模型设计公司的机密,这个是不能轻易向你披露的,而且我向你披露了,你也看不懂,也没有人出来给他解释他为什么评分这么低。一旦这样的数学模型发生了错误怎么办呢?可以说现在还是没有一个纠正的机会。

第三个说数学模型是大规模杀伤性武器的原因,是这种模型往往有一个自我巩固和强化的功能,缺少验证和纠偏的机制。比如说我们如果设置一个网站的“猜你喜欢”的推荐影视作品的模型,他可以轻易搜集到给一个小女孩儿不停地推荐一些武打的电影之后,这个小女孩的点击量就迅速下降了,那么给她推荐一些动画片之后,这个点击量可能就上升了,系统就会根据这个点击量去自动调整。可是我们会发现一旦用算法来做很重要决策的时候,比如说我要给你决定你是不是具有领取福利的资格,我要决定你是不是一个评分很高老师,决定你是不是一个优秀的员工,他就缺乏非常重要的反馈和纠错的机制。因为被这个决策系统,被这个模型决定的失去机会的人,他就离开这个系统了,失去了再向这个系统反馈的机会。

紧接着下来我们探讨的问题是,既然数学模型在不当使用的时候杀伤性是非常强的,会给整个社会造成什么样的问题呢?

那么作者在书当中提出一个最主要的观点,一他认为造成的最严重的后果就是人会为了这个模型而去规训自己的行为,换句话说为了我们去适应指标而不断地调试自己的行为,使得自己迎合模型设定的标准。

我们举个简单的例子,比如说我们都知道搜索引擎,搜索引擎的第一页实际上是可以占到用户点击量的90%,那么如果说你想提高自己的搜索引擎的点击量,或者你想提高自己家的商品在整个电商平台上被看到的次数,那你可能就专门要去请一个搜索引擎优化的公司,来增加自己被点击和被看到的可能性。再比如说我们刚才说到华盛顿市被错误评价的教师,他后来就发现有很多下面的学生考到他的班级来之后,当时的阅读分数非常高,接近满分,可是发现这些孩子真正到自己班级之后,阅读的水平非常差,有一些连完整的句子都读不出来,他想了想之后就明白了,他发现是因为这些老师知道这些孩子的阅读成绩可能会对于自己是不是能够保有这份工作产生重要影响,所以就主动作弊去修改了这些孩子的阅读成绩。所以我们可以看到这些模型的设计可能会扭曲人的行为,使得人成为主动迎合数学模型所设定的标准。

第二个作者提出非常重要的观点就是他非常担忧这些数学模型,实际上是以穷人作为被杀伤的主要对象,为什么这么说呢?在银行一些重要的客户,VIP客户是有自己直接对接的客户经理,但是社会大众越来越多的被这些模型去决定自己的命运,这造成特权阶级有可能获得更公正的评价,而大众则被机器操控。这样的数学模型可能会加剧美国的贫富分化。在书里有一个给我印象非常深的例子,作者发现穷人的贷款利率要比富人更高。因为什么呢?因为模型计算穷人可能违约的可能性更大,更高的贷款利率能保证穷人违约时银行不至于损失太大。显然穷人更需要这样的贷款获得改善自己经济条件的机会,而相比来说富人可能对这些经济资助的需求没有那么迫切,这样的数学模型应用也会导致未来贫富差距越来越大。

他又举了一个例子说在美国广泛使用犯罪预测的模型,这个模型怎么使用的呢?他把所有的曾经发生过犯罪案件数据输入到模型里面,这个地方如果以前数据很多,警察就会加强对这个地区的巡逻,我们可以看到,警察在这个地区更多地出现,他就会发现更多的案件,回到这个模型当中,这个地区的案件更多或者穷人更容易被发现从事某些犯罪行为,这就使得形成了一个失真的回馈循环。可是有一个问题:真正在现场能够被抓到的案件,往往都是轻微的治安刑事案件,比如说你是不是破坏公物,比如说你是不是流落在街头,甚至说抢劫,但是这些犯罪行为的社会危害性就更大吗?如果说一个基金经理诈骗了公司很多钱,或者说一个经理人侵吞了股东很多钱,那社会危害性是不是更大呢?可是数学模型是不会考虑这个因素,作者认为可能这也会加重美国街区之间的贫富分化。

那么这样的算法模型之下,人是被数据化,被评分,被计算,被排序,被筛选的客体。一个看似中立的数学模型,可能会使得你被评估为一个糟糕的员工,一个有不偿还贷款风险的借款人,或者说是一个高危的恐怖分子,或者是一个差劲的老师,由于这些抉择你可能失去工作,在机场无法乘坐飞机,或者没有办法投保,可是这样相应的决策结果又非常让人难以更改,算法说你是一个不合格的员工,你如何去证明自己是一个合格的员工呢?你所提出的这些标准和所拿出的证据,要远远比算法给你做出一个错误判断所需要的证据标准高得多。用数学模型做出决策是因为我们认为算法更加高效,另一个原因是把这些决策外包给算法了,一旦出错我就会告诉你这不是我的错,这是算法的错。如果做错了怎么办呢?那对不起,你只是这个数学模型合理误差的一种附带损失而已。可是当这个模型被用来计算人的时候,就会使得公立学校系统失去一位优秀的教师,或者把一个人错误的关进监狱。如何改变这种情况呢?作者认为非常重要的就是让这些设计者负起责任,设计这些模型的程序员都应该像医生一样宣誓,发誓自己不会用这些模型做坏事,而且秉承一个非常谨慎的义务,同时监管部门也应该加强监管,要保证数据和整个模型做到公开透明。

在我看来,在大数据高歌猛进的时代敲响了一个警钟。但似乎这本书的观点有一点点的偏激和绝对。比如说一个模型可能会发生错误的话,是不是用人来决策就必然更好呢?我个人倒不是这么认为的,可以说高效和个性化可以说是一个硬币的两面,你很难同时兼顾,一刀切的政策对所有人运用一样的模型,可能会损害很多个性化的利益,但是真的像个性化的决策是否由人类做决策,就一定能保证公平呢?也不一定。举一个例子,你是愿意要推荐信上大学的录取体系,还是愿意参加一个标准化统一的高考呢?我倒觉得可能后者会相对来说更加公平一些。同时作者提出的一些观点我觉得也值得商榷,比如说一些标准如果在确实提高了效率的情况下,那么是否真的像作者所说的那样,一定有那么多的阴暗面,是否真的就无法修正,我相信这些是可以随着制度的改进和整个社会对于算法可能带来的危害,会随着社会认知和监管措施的提升而逐渐消弭的。

大家肯定更为关心的是,在五年以前作者在书中为我们描述的这些大数据和算法一些阴暗面,现在怎么样了呢?实际上在这五年当中,世界各国都逐渐认识到了用算法自动化决策可能会存在各式各样的问题。所以不管在美国、欧洲还是在我们国家,现在都相继出台了一系列针对算法的监管措施和立法。其中基本的理念和手段和作者提出的是非常相像的,即要求提高整个数学模型的透明度,对于一些重要的决策可能会影响人的重大权益,给这些受到不利决策的人得到解释和改变决策结果的机会,相信大数据和算法在人的合理使用当中,能够发挥大的作用,谢谢大家。

直播回看方式

微信长按识别上方二维码

回复【算法霸权】即可回看本次精彩直播


欢迎关注周泰,欢迎点“”和“在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存